    Weba euskarazko corpus gisa

    The Basque language. just as any other, needs text corpora to survive in the modern world and to be used normally. But Basque corpora are few and small compared to those in other major languages. This is so because other languages have made use of the "Web-as-Corpus" approach , which consists of using the web as a corpus or as a source of texts for corpora. ln this paper, we describe the research carried out in his PhD thesis by the first author, under the supervision of the other two authors, to use the web and automatic methods for Basque corpus building, and also the tools developed and the results obtained. Out of them we can conclude that the "Web-as-Corpus" approach is val id to improve the state of Basque corpora , since with the developed tools we have collected quality corpora of different types (very large general corpora, specialized corpora, comparable corpora ... ) and built a service to query the web as a Basque corpus.Many of these tools and services ha ve already been placed online for their public use.; Euskarak, beste edozein hizkuntzak bezala , testu-corpusak behar ditu mundu modernoan bizirauteko eta normalki erabiltzeko. Alabaina , euskarazko corpusak gutxi eta txikiak dira , beste hizkuntza handiagoenekin konparatuz gero. Hori horrela da beste hizkuntzek "Web-as-Corpus" izeneko planteamendua baliatu dutelako, hau da, weba erabili dutelako corpus gisa edo corpusak osatzeko testu-iturritzat . Artikulu honetan azaltzen dira bere doktorego-tesian lehenengo autoreak, beste bi autoreen zuzendaritzapean, euskarazko corpusgintzarako weba eta metodo automatikoak baliatzeko egindako ikerketak, aratutako tresnak eta lortutako emaitzak . Horietatik ondorioztatu daiteke "Web-as-Corpus" planteamendua baliagarria dela euskarazko corpusen egoera hobetzeko, garatu diren tresna informatikoen bidez weba corpus gisa kontsultatzeko tresna bat eraiki baita eta mota askotako eta kalitatezko corpusak lortu ahal izan baitira (corpus orokor oso handiak, corpus espezializatuak, corpus konparagarriak, .. ). Horietako asko jada online gizartearen eskura jarri dira

    Hybrid machine translation guided by a rule-based system

    This paper presents a machine translation architecture which hybridizes Matxin, a rulebased system, with regular phrase-based Statistical Machine Translation. In short, the hybrid translation process is guided by the rulebased engine and, before transference, a set of partial candidate translations provided by SMT subsystems is used to enrich the treebased representation. The final hybrid translation is created by choosing the most probable combination among the available fragments with a statistical decoder in a monotonic way. We have applied the hybrid model to a pair of distant languages, Spanish and Basque, and according to our evaluation (both automatic and manual) the hybrid approach significantly outperforms the best SMT system on out-of-domain data.Peer ReviewedPostprint (author’s final draft

    Deep evaluation of hybrid architectures: simple metrics correlated with human judgments

    The process of developing hybrid MT systems is guided by the evaluation method used to compare different combinations of basic subsystems. This work presents a deep evaluation experiment of a hybrid architecture that tries to get the best of both worlds, rule-based and statistical. In a first evaluation human assessments were used to compare just the single statistical system and the hybrid one, the rule-based system was not compared by hand because the results of automatic evaluation showed a clear disadvantage. But a second and wider evaluation experiment surprisingly showed that according to human evaluation the best system was the rule-based, the one that achieved the worst results using automatic evaluation. An examination of sentences with controversial results suggested that linguistic well-formedness in the output should be considered in evaluation. After experimenting with 6 possible metrics we conclude that a simple arithmetic mean of BLEU and BLEU calculated on parts of speech of words is clearly a more human conformant metric than lexical metrics alone.Peer ReviewedPostprint (author’s final draft

    Evolución del número de mujeres en la matrícula de los estudios de informática en la Universidad del País Vasco, UPV/EHU

    El objetivo de esta ponencia es propiciar una reflexión sobre por qué cada año es menor el número de mujeres que se matricula en los estudios de informática en la Universidad del País Vasco. Los datos de matriculación en la UPV/EHU entre los cursos 1998-99 y 2005-06 en las distintas áreas de conocimiento muestran los bajos porcentajes de mujeres en el área técnica, aunque estos porcentajes van subiendo paulatinamente. Sin embargo, las ingenierías en informática siguen la tendencia inversa en lo referente al número de mujeres, que va bajando año a año. Se presentan también los datos del estudio realizado en 2004 por Lanbide para la promoción 2000 de la UPV/EHU, donde se puede observar la influencia que la elección de carrera tiene en la inserción en el mundo laboral, en la estabilidad en el empleo, empleos encajados y en el nivel de ingresos, todo ello desde la perspectiva de género

    Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak

    [EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu, erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari erreparatu diegu. Ondoren, adibideetako entitate-izenak eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak erabili ahal izateko

    Una invitación a la participación de la mujer en Ingeniería Informática

    Actualmente el número de alumnas que se matricula en la UPV/EHU es superior al de alumnos. El mundo de la ingeniería ha sido y sigue siendo predominantemente masculino, aunque la mujer se vaya incorporando lenta pero paulatinamente. El caso de la informática es especialmente llamativo por el descenso del porcentaje de mujeres a pesar de ser una profesión reciente. En este trabajo presentamos una iniciativa destinada a impulsar la participación de la mujer en el área de la informática

    Wikipedia eta itzulpen automatikoa: "harri batez bizpalau xori"

    Artikulu honetan elkarlanean egindako proiektu bat aurkezten dugu. Boluntario talde bat bildu dugu espainierazko Wikipediako hainbat artikulu euskarara itzultzeko, baina boluntarioen lana errazteko, Matxin itzultzaile automatikoa erabili dugu aurreitzulpenak sortzeko, eta horrela boluntarioen lana errare eta akatsak dituzten itzulpen automatiko horiek aztertu eta zuzentzea izan da. Lan honekin, batetik, Euskal Wikipedia aberastu dugu, 50.000 hitz berri gehituz. Beste alde batetik, sistema automatikoaren itzulpenak eta posteditatutako bertsio zuzenduekin corpus bat sortu dugu. Corpus hori erabili dugu posteditore estatistiko bat sortzeko, Matxin itzulpen automatikoko sistemaren irteeraren doitasuna % 10ean hobetuz

    Construcción de un corpus etiquetado sintácticamente para el euskera

    El objetivo de este trabajo es la construcción de un corpus anotado sintácticamente para el euskera. En esta comunicación presentaremos, en primer lugar, las bases sobre las que se asienta nuestro etiquetado. Tras examinar diversas opciones se optó por el esquema presentado por (Carrol et al., 1998). Este esquema sigue los estándares EAGLES y se basa en la idea de añadir a cada frase del corpus una serie de relaciones gramaticales que especifican la dependencia existente entre el núcleo y sus modificadores. Una vez presentado el formalismo de etiquetado, se expondrán los problemas que hemos encontrado en nuestra tarea y las decisiones tomadas. Seguidamente se describirá un ejemplo concreto en el que se muestra la aplicación de dicho esquema sobre un corpus inicial. Finalmente, presentaremos las conclusiones sobre la idoneidad del esquema al euskera y trabajo futuro.The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.Este trabajo se ha realizado dentro del proyecto "Construcción de una base de datos de árboles sintácticos y semánticos", subvencionado por el Ministerio de Educación y Ciencia (PROFIT: FIT-150500-2002-244)

    QUALES: Machine Translation Quality Estimation via Supervised and Unsupervised Machine Learning

    La estimación automática de calidad (EAC) de la traducción automática consiste en medir la calidad de traducciones sin acceso a referencias humanas, habitualmente mediante métodos de aprendizaje automático. Un buen sistema EAC puede ayudar en tres aspectos del proceso de traducción asistida por medio de traducción automática y posedición: aumento de la productividad (descartando traducciones automáticas de mala calidad), estimación de costes (ayudando a prever el coste de posedición) y selección de proveedor (si se dispone de varios sistemas de traducción automática). El interés en este campo de investigación ha crecido significativamente en los últimos años, dando lugar a tareas compartidas a nivel mundial (WMT) y a una fuerte actividad científica. En este artículo, se hace un repaso del estado del arte en este área y se presenta el proyecto QUALES que se está realizando.The automatic quality estimation (QE) of machine translation consists in measuring the quality of translations without access to human references, usually via machine learning approaches. A good QE system can help in three aspects of translation processes involving machine translation and post-editing: increasing productivity (by ruling out poor quality machine translation), estimating costs (by helping to forecast the cost of post-editing) and selecting a provider (if several machine translation systems are available). Interest in this research area has grown significantly in recent years, leading to regular shared tasks in the main machine translation conferences and intense scientific activity. In this article we review the state of the art in this research area and present project QUALES, which is under development

    Línea formativa de inteligencia artificial en la facultad de informática de la UPV-EHU

    Con objeto de ampliar la capacitación de sus licenciados en el área de IA ésta facultad ofrece una línea de optatividad que reúne 37 créditos en 7 asignaturas fundamentales. Estas asignaturas se centran en torno a: Sistemas Basados en el Conocimiento, Procesamiento del Lenguaje Natural, Métodos Probabilísticos de la IA, Redes Neuronales e Inferencia Estadística